Custom Metadata Extraction

Java Technologies - অ্যাপাচি টিকা (Apache Tika) - Metadata Extraction
250

Apache Tika একটি শক্তিশালী টুলকিট যা বিভিন্ন ফাইল ফরম্যাট থেকে metadata extraction করতে সক্ষম। তবে কখনও কখনও, আপনি যদি custom metadata এক্সট্র্যাক্ট করতে চান, যেমন কিছু নির্দিষ্ট ফাইলের মেটাডেটা, অথবা আপনি যদি মেটাডেটার কিছু নির্দিষ্ট বৈশিষ্ট্য এক্সট্র্যাক্ট করতে চান, তাহলে Tika এর সাথে custom metadata extraction করা সম্ভব।

এখানে Apache Tika এর মাধ্যমে custom metadata extraction করার একটি উদাহরণ দেওয়া হয়েছে, যেখানে আমরা একটি ফাইল থেকে custom metadata এক্সট্র্যাক্ট করব এবং তারপর তা প্রক্রিয়া করব।


Step 1: Apache Tika Maven Dependency

প্রথমে, আপনার Maven প্রজেক্টে Apache Tika লাইব্রেরি যোগ করতে হবে। আপনার pom.xml ফাইলে নিচের ডিপেনডেন্সি যোগ করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.0.0</version> <!-- Latest version -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.0.0</version> <!-- Latest version -->
    </dependency>
</dependencies>

Step 2: Custom Metadata Extraction Example

এখন, আমরা একটি উদাহরণ তৈরি করব যেখানে Apache Tika ব্যবহার করে একটি ফাইল থেকে custom metadata এক্সট্র্যাক্ট করা হবে। এই প্রোগ্রামে আমরা নির্দিষ্ট কিছু মেটাডেটা (যেমন author, title, keywords) সনাক্ত করব এবং তা প্রদর্শন করব।

Custom Metadata Extraction Code Example:

import org.apache.tika.Tika;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class CustomMetadataExtraction {

    public static void main(String[] args) {
        try {
            // Specify the file from which to extract custom metadata
            File file = new File("example.docx");

            // Create Tika instance
            Tika tika = new Tika();

            // Create a Metadata object
            Metadata metadata = new Metadata();

            // Parse the file and extract metadata
            tika.parse(new FileInputStream(file), metadata);

            // Extract custom metadata properties
            System.out.println("Author: " + metadata.get(Metadata.AUTHOR));
            System.out.println("Title: " + metadata.get(Metadata.TITLE));
            System.out.println("Keywords: " + metadata.get(Metadata.KEYWORDS));

            // You can also print all metadata names and values
            System.out.println("\nAll Metadata:");
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Step 3: Sample Input File (example.docx)

example.docx একটি Microsoft Word ফাইল হতে পারে, যার মধ্যে কিছু মেটাডেটা রয়েছে, যেমন author, title, এবং keywords। এই ফাইলের মেটাডেটা এক্সট্র্যাক্ট করার জন্য Apache Tika ব্যবহার করা হবে।

এখানে একটি উদাহরণ docx ফাইলের মেটাডেটার কিছু প্রাসঙ্গিক তথ্য দেওয়া হলো:

<?xml version="1.0" encoding="UTF-8"?>
<document>
    <metadata>
        <author>John Doe</author>
        <title>Apache Tika Introduction</title>
        <keywords>Apache, Tika, Metadata, Extraction</keywords>
    </metadata>
</document>

Step 4: Output

যখন আপনি প্রোগ্রামটি চালাবেন, এটি ফাইলের custom metadata এক্সট্র্যাক্ট করবে এবং তা কনসোলে প্রদর্শন করবে।

Output Example:

Author: John Doe
Title: Apache Tika Introduction
Keywords: Apache, Tika, Metadata, Extraction

All Metadata:
Author: John Doe
Title: Apache Tika Introduction
Keywords: Apache, Tika, Metadata, Extraction
Content-Type: application/vnd.openxmlformats-officedocument.wordprocessingml.document
...

এখানে, Tika ফাইল থেকে author, title, এবং keywords মেটাডেটা এক্সট্র্যাক্ট করেছে এবং প্রিন্ট করেছে। এছাড়া, Tika অন্যান্য metadata fields যেমন content type, date, creator ইত্যাদি থেকেও তথ্য সংগ্রহ করতে সক্ষম।


Step 5: Explanation of Custom Metadata Extraction

  1. Tika Instance Creation:
    • Tika tika = new Tika(); - এখানে Tika ইনস্ট্যান্স তৈরি করা হয় যা ফাইল পার্স করতে ব্যবহৃত হবে।
  2. Metadata Object:
    • Metadata metadata = new Metadata(); - এই অবজেক্টটি ফাইলের মেটাডেটা সংগ্রহের জন্য ব্যবহৃত হয়।
  3. Extracting Specific Metadata:
    • metadata.get(Metadata.AUTHOR) - এখানে author, title, keywords এই মেটাডেটাগুলি ফাইল থেকে এক্সট্র্যাক্ট করা হচ্ছে। Tika অন্যান্য মেটাডেটাও এক্সট্র্যাক্ট করতে পারে, যেমন subject, creator, language ইত্যাদি।
  4. Printing All Metadata:
    • metadata.names() - এই মেথডটি ফাইলের সমস্ত মেটাডেটার নাম ফেরত দেয়, যা পরে প্রিন্ট করা হয়। এটি আপনাকে ফাইলের সমস্ত মেটাডেটা দেখাতে সাহায্য করে।

Step 6: Working with Different File Formats

Apache Tika একটি file format agnostic লাইব্রেরি, অর্থাৎ এটি প্রায় সব ফাইল ফরম্যাট থেকে মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম। আপনি PDF, Word, Excel, HTML, XML, এবং অন্যান্য অনেক ধরনের ফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করতে পারেন। Tika বিভিন্ন ফাইল ফরম্যাটের কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য parsers ব্যবহার করে এবং স্বয়ংক্রিয়ভাবে সেগুলিকে প্রসেস করে।


Conclusion

Apache Tika ব্যবহার করে custom metadata extraction খুবই সহজ এবং কার্যকরী। আপনি ফাইলের মেটাডেটা যেমন author, title, keywords, creator, এবং অন্যান্য সম্পর্কিত তথ্য এক্সট্র্যাক্ট করতে পারেন। এটি content management systems, search engines, digital libraries, এবং অন্যান্য সিস্টেমে ডেটা সংগঠন এবং অনুসন্ধান উন্নত করতে ব্যবহৃত হয়। Tika এমনকি ফাইলের সঠিক MIME type সনাক্তকরণ, ভাষা শনাক্তকরণ এবং অন্যান্য গুরুত্বপূর্ণ তথ্য সরবরাহ করতে সক্ষম।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...